在上一篇中,我們確定標註目標(情緒分類、主題分類)之後,下一步就是進行實際的資料標註。我們需要先決定要使用什麼標註工具以及標註的工作流程。
常見的標註工具選擇
這裡整理幾個常見的標註工具,並列出優缺點,讓大家在不同情境下能做出選擇:
開源工具
Label Studio
- 優點:支援多種資料型態(文字、影像、音訊)、可自訂標籤、與 ML pipeline 整合方便
- 缺點:需要自行架設伺服器,對新手略有門檻
doccano
- 優點:專為 NLP 任務設計,簡單易用,適合文字分類、NER 等標註
- 缺點:功能較簡單,對影像或音訊不支援
雲端平台
Prodigy(付費)
- 優點:與 spaCy 深度整合,支援主動學習(active learning)
- 缺點:商業授權費用高,適合企業或研究單位
Google Cloud Data Labeling / AWS SageMaker Ground Truth
- 優點:適合大規模專案,能與雲端 ML workflow 無縫銜接
- 缺點:上手需要學習成本,通常適合企業級專案
簡單表格方案
Google Sheet / Excel
- 優點:學習成本低,適合少量資料或快速 PoC
- 缺點:不支援進階功能,難以擴展
標註實作流程建議
不論你選擇哪種工具,標註流程通常可以分成以下幾步:
Step 1:標籤定義與規範制定
- 先將「情緒分類(正面、負面、中性)」與「主題分類(帳號、搜尋、商品資訊、結帳、售後…)」定義清楚
- 撰寫一份「標註規範文件」,提供範例,確保不同標註者理解一致
- (示例)可依電商顧客購買流程進行主題分類並給予定義
Step 2:工具環境準備
- 開源工具(如 doccano、Label Studio):安裝並建立專案
- 表格方案:建立欄位(例如:
review_text
、emotion_label
、topic_label
)
- 雲端方案:建立 dataset 並設定標籤
Step 3:標註任務分配
- 將資料切分給不同標註人員
- 設定進度追蹤,避免遺漏或重複標註
Step 4:標註作業與質量檢查
- 透過工具進行逐筆標註
- 定期抽樣檢查一致性(inter-annotator agreement, IAA)
- 若標註結果有歧義,需回到規範文件修正
Step 5:資料匯出與整合
- 將標註好的資料匯出成 CSV / JSON 格式
- 與原始評論資料進行合併
- 準備進入模型訓練階段